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基于 关联 数据 的 类 簇 语 义 扬 示 模 型 研究 
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摘要 :【 目的 ] 调 研 基于 关联 数据 揭示 类 簇 内 主题 词 间 语义 关系 的 模型 和 技术 方法 。[ 方法 ] 利 用 Google Scholar, 
Springer, CNKI 等 检索 与 研究 主题 相关 的 文献 ,调研 分 析 并 梳理 当前 类 簇 分 析 和 语义 关系 揭示 相关 研究 , 构建 基 
于 关联 数据 的 类 簇 语义 关系 揭示 模型 , 通过 实验 验证 模型 的 有 效 性 。[ 结果 】 实 验 结果 表明 ,利用 关联 数据 可 以 
有 效 揭示 主题 词 间 语 义 关系 , 弥补 传统 共 词 聚 类 分 析 在 语义 方面 的 不 足 。[ 局 限 】 受 实验 数据 限制 ,目前 揭示 出 
的 语义 关系 局 限于 上 下 位 类 关系 、 类 与 实例 关系 和 相关 关系 等 类 型 ,未 考虑 关联 数据 质量 问题 对 语义 揭示 结 
造成 的 影响 。[ 结论 ] 提出 的 基于 关联 数据 的 类 簇 语 义 关系 揭示 模型 可 以 有 效 揭 示 主 题词 间 语 义 关 系 ， 为 共 词 聚 


类 结果 的 理解 和 分 析 提 供 一 种 新 的 方式 。 
关键 词 : 关联 数据 共 词 聚 类 ”类 复 ” 语义 揭示 模型 
分 类 号 : G25 
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共 词 聚 类 分 析 根 据 物 以 类 聚 的 原理 将 本 身 没有 类 
别 的 主题 词 聚集 成 代表 不 同 研究 子 领域 的 类 簇 ,， 通过 
分 析 这 些 类 簇 可 以 清晰 直观 地 揭示 学 科 的 主题 结构 与 
变化 中 ,根据 隧 类 原理 ,类 簇 将 距离 最 短 的 主题 词 案 集 


m 


关系 , 相关 研究 主要 包括 : 学 科 专家 参与 、 共 词 关联 分 
析 、 文 本 挖 气 、 基 于 本 体 和 词 表 、 基 于 关联 数据 的 方 
法 等 。 

(1) 学 科 专 家 参与 , 张 树 良 等 中 提出 共 词 聚 类 的 
过 程 应 有 学 科 专 家 的 介入 , 学 科 专 家 通过 人 工 梳理 的 
方式 帮助 人 们 理解 类 簇 内 和 类 簇 间 的 语义 关系 ,弥补 


在 一 起 而 未 考虑 词 间 的 逻辑 关系 , 这 样 造成 的 后 果 是 
类 复 因 缺少 主题 词 间 的 语义 关系 而 难以 理解 。 关 联 数 
据 的 发 布 与 应 用 为 共 词 聚 类 研究 的 发 展 提供 了 新 契 
机 ,特别 是 关联 数据 预先 建立 了 大 量 权 威 、 准 确 的 属 
性 关系 ,每 个 数据 对 象 包括 多 种 属性 和 特征 ， 从 而 为 
实现 路 学 科 领 域 、 路 数据 源 的 精准 语义 关系 揭示 提供 
FAAPE. 
2 相关 研究 概述 

类 簇 分 析 从 分 析 层 次 上 可 分 为 紧密 度 分 析 和 语义 
关系 揭示 两 种 。 类 复 的 紧密 度 分 析 主 要 衡量 聚 类 的 紧 
密 程度 ,相关 研究 主要 包括 粘 合力 、 密 度 等 类 簇 分 析 
指标 以 及 共 词 聚 类 与 其 他 辅助 方法 的 结合 。 类 簇 的 语 


了 共 词 聚 类 对 数学 统计 的 依赖 。 

Q) 共 词 关联 分 析 , 关联 规则 是 描述 一 个 事物 中 
物品 之 间 同 时 出 现 的 规律 的 知识 模式 , 共 词 关联 分 析 
以 此 为 原理 , 通过 关联 统计 方法 揭示 主题 词 间 的 依存 
关系 。 张 蛤 等 外 利用 关联 规则 算法 对 4 种 抗 肿瘤 药物 
主题 词 和 副 主 题词 组 配 模式 进行 分 析 , 抽取 出 与 这 4 
类 药物 有 关 的 、 有 效 的 语义 关系 搭配 模式 。 张 蛤 等 外 
根据 书目 文献 数据 库 中 主题 词 / 副 主 题词 之 间 的 语义 
关联 规则 抽取 知识 ,获得 具体 的 药物 与 疾病 之 间 的 知 
识 。Cimino 等 中 对 主题 词 和 副 主 题词 的 组 配 规则 进行 
研究 , 通过 使 用 简单 的 模式 匹配 规则 来 自动 生成 医学 
概念 之 间 的 语义 关系 。 

(3) 文本 挖掘 , 面向 语义 关系 发 现 的 文本 控 掘 主 


义 关 系 揭示 主要 从 知识 发 现 的 角度 探索 类 簇 内 部 语义 


要 通过 对 NLP 进行 扫描 和 自动 化 处 理 , 发 现 概 念 术语 
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及 概念 术语 间 存 在 的 语义 关系 。 刘 明 岩 外 结合 文本 挖 
所 和 本 体 自动 构建 的 方法 探索 了 军用 飞机 领域 概念 间 
的 语义 关系 。 
(4) 基于 本 体 和 词 表 的 语义 关系 发 现 主 要 从 已 知 
的 概念 间 的 语义 关系 出 发 。 张 小 刚 中 结合 概率 论 在 中 
医药 语言 系统 的 应 用 基础 上 ,利用 关联 关系 分 布 推断 
中 医药 领域 未 知 的 语义 关系 类 型 。 魏 来 外 以 词 表 为 语 
义 基础 ,引入 关联 词典 机 制 , 通过 识别 标签 集中 的 标 
签 同 在 线 词 表 概 念 体系 之 间 的 关系 , 进而 识别 出 标签 
之 间 的 语义 关系 。 

(5) 基于 关联 数据 的 语义 关系 发 现 研 究 还 处 于 探 
索 阶 段 。 Tiddi 等 四 提出 的 Dedalo 启发 式 关 联 数据 遍历 
挖掘 系统 具有 一 定 代表 性 ,Dedalo 通过 启发 式 的 迭代 
检索 关联 数据 寻找 簇 内 实体 间 共 同 路 径 ， 进 而 形成 簇 
内 实体 共有 的 语义 关系 。Taheriyan 等 ("通过 语义 标注 
和 构建 语义 关联 的 方式 利用 关联 数据 推断 结构 化 资源 
的 语义 关系 。 此 外 , 还 有 一 些 关 联 数 据 挖掘 相关 技术 
对 本 研究 有 重要 借鉴 意义 。 在 国内 ,李楠 和 等同 、 李 俊 
等 (3 分别 总 结 了 基于 关联 数据 的 数据 挖掘 相关 研究 ， 
提出 基于 关联 数据 的 知识 发 现 模型 。 高 劲松 等 请 在 关 
联 数据 的 知识 发 现 过 程 金字 塔 的 基础 上 提出 基于 关联 
数据 的 知识 发 现 模型 。 宋 丽 娜 站 提出 关联 数据 环境 下 
基于 知识 地 图 的 隐 性 知识 发 现 模型 。 刘 龙 中 提出 基于 
关联 数据 的 知识 发 现 过 程 模型 。 与 国内 相 比 ,国外 人 研 
究 较 为 丰富 。Narasimha 等 (9 提出 的 LiDDM 关联 数据 
挖 气 系统 及 Paulheim 等 ("提出 的 FeGeLOD 特征 提取 
器 通过 格式 转化 或 特征 提取 将 关联 数据 转化 为 适合 传 
统 数据 挖掘 算法 的 格式 。Ramezani 等 [5 提出 的 
SWApriori 和 Personeni 等 ("提出 的 ILP 学 习 方 法 通过 
改进 传统 数据 挖掘 算法 将 其 应 用 于 RDF 格式 数据 进 
行 关联 数据 的 控 掘 。Jiang 等 中 "提出 的 频繁 子 图 挖掘 方 
法 及 Li 等 中 提出 的 深度 学 习 方 法 针对 关联 数据 的 属 
性 链 和 节点 等 结构 信息 进行 挖掘 。 

每 种 方法 都 有 一 定 的 缺陷 , 专家 参与 方法 的 缺陷 
在 于 成 本 高 、 难 以 推广 ; 基于 关联 分 析 的 语义 关系 发 
现 的 缺陷 在 于 只 能 发 现 某 些 特定 类 型 的 语义 关系 ; 基 
于 文本 挖掘 的 方法 缺陷 在 于 文本 语料库 通常 缺乏 足够 
的 结构 化 信息 , 本 体 和 词 表 的 结构 严谨 但 覆盖 程度 和 
语义 关联 程度 交叉 不 足 , 许多 本 体 和 词 表 相关 往往 在 
大 小 和 规模 上 有 所 限制 ， 难 以 覆盖 到 足够 丰富 的 概念 
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以 及 概念 之 间 的 关系 。 关 联 数据 作为 一 个 可 供 语义 挖 
掘 的 重要 资源 ,在 规模 和 结构 上 体现 出 双重 优势 ， 因 
此 基于 关联 数据 揭示 类 簇 语义 关系 虽然 属于 一 种 新 的 
尝试 , 但 伴随 着 LOD 数据 资源 和 相关 技术 的 快速 发 
展 , 这 种 新 的 语义 关系 揭示 方法 可 能 会 成 为 未 来 研究 
发 展 的 一 个 趋势 。 


3 ”基于 关联 数据 的 类 簇 语义 揭示 模型 


联 数据 的 网 状 结构 特征 ， 主 题词 节点 间 最 大 距离 为 3 
可 能 存在 的 关联 关系 如 图 1 所 示 。 
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图 1 主题 词 节点 间 关 联 关系 示意 


其 中 棕色 椭圆 框 (ED) 表 示 类 簇 内 主题 词 对 应 关联 


间 的 直线 /曲线 代表 属性 关系 (R)。 本 文 将 研究 范围 限 
定 在 主题 词 距 离 不 超过 3 的 关联 关系 , 原因 如 下 : 
(1) 最 大 距离 为 3 保证 了 充足 的 关联 关系 。LOD 
是 典型 的 小 世界 图 , 这 种 图 的 特点 就 是 无 论 网 络 规模 
多 大 , 一 般 搜索 路 径 的 最 大 步 数 是 一 个 比较 稳定 的 值 ， 
研究 表明 LOD 中 节点 间 平 均 最 短路 径 长 度 为 2.45; 
(2) 根据 路 径 综 合 重要 性 评价 方法 , 距离 较 远 的 
关联 关系 重要 性 较 低 , 缺乏 语义 揭示 的 价值 ; 
(3) 关联 数据 网 挖掘 的 检索 空间 呈 指 数 上 升 ， 更 
长 的 路 径 会 导致 更 大 的 时 间 开 销 。 
31 基于 关联 数据 的 类 簇 语义 揭示 模型 结构 
AER TRASEROS AR, 本文 提出 以 下 定义 
(1) 关联 数据 图 : 关联 数据 图 是 由 RDF 数据 构成 


的 有 向 图 , 图 中 节点 是 由 UR 标注 的 主语 或 对 象 , 边 
是 一 组 具有 URI 标注 的 属性 。 

(2) 关联 路 径 : 本 文 将 从 主题 词 节点 E, 出 发 到 
主题 词 节点 Ep 之 间 所 经 过 的 属性 R 和 节点 五 的 集合 
定义 为 关联 路 径 ， 从 Ei 经 过 节点 El SU E,, 的 一 条 关 
联 路 径 可 以 表示 为 : Ep E Ep, P 
Ell Ep 表示 主题 词 节点 , E1 为 关联 数据 挖掘 发 现 的 
类 簇 外 节点 , R1 和 R2 表示 节点 间 属 性 关系 。 关 联 路 径 
的 长 度 指 路 径 拥 有 的 属性 数量 ,例如 : EN 一 全 > 
EIL Ep 就 是 一 条 长 度 等 于 2 的 关联 路 径 ; 

(3) 路 径 和 属性 方向 : 从 主题 词 已 到 主题 词 E,» 
的 关联 路 径 的 方向 表示 为 B11 一 一 EB,， 关联 路 径 中 
的 属性 关系 方向 与 已 ;一 有 相同 的 为 正 向 属性 ， 
属性 关系 与 关联 路 径 方向 相反 则 为 逆向 属性 。 例 如 ， 
在 关联 路 径 E, EE rp, o gg 
向 属性 ， 一 人 > 为 正 向 属性 。 
3.2 关联 路 径 分 类 

由 于 多 个 主题 词 节点 之 间 的 关联 路 径 错综复杂 难 
以 理解 MA EAR 点 间 的 语义 关系 出 发 ， 
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图 2 间接 关联 示意 图 


(Lowest Common Ancestor, LCA) 的 定义 为 : 对 于 有 根 
树 工 的 两 个 节点 uv, 最 近 公 共 祖 先 LCA(T, u, 中) 表示 
一 个 节点 x, 满足 x 是 节点 和 节点 v 的 祖先 且 x 的 深 
度 尽 可 能 大 。 在 关联 数据 中 也 存在 类 似 的 结构 , 存在 
最 近 公 共 祖 先 节 点 的 关联 路 径 被 定义 为 最 近 公 共 祖 先 
节点 关联 (Lowest Common Ancestor Relation, LCAR). 

最 近 公 共 关 联 祖先 关联 的 定义 如 下 : 通过 最 短 的 属性 
链 向 两 个 主题 词 节点 的 节点 被 称 作 主题 词 的 最 近 公 共 
祖先 节点 。 如 图 3 所 示 ， 当 关联 路 径 长 度 为 2 时 , 存在 
BE7(LC4) 一 全 >》B,, 一 种 LCAR。 当 关联 
路 径 长 度 为 3 Bb, 存在 Bi < 人 
EM(LCA)—P— Ej, 和 Ete EISQLCA) 


Eize = 


逐步 探索 整个 类 簇 内 主题 词 之 间 的 语义 关系 。 以 图 1 
中 主题 词 节点 El 和 i, 为 例 , 根据 关联 路 径 长 度 和 
属性 方向 的 不 同 ，E 和 i, 间 的 关联 路 径 可 分 为 : 
接 关 联 、 间 接 关 联 、 最 近 公共 祖先 节点 关联 、 最 近 
共 子 孙 节 点 关联 等 4 类 , 不 同类 型 的 关联 路 径 对 应 2 
同类 型 语义 关系 。 

(1) 直接 关联 (Direct Relation, DR); 直接 关联 指 
的 是 主题 词 节点 间 长 度 为 1 的 关联 路 径 ， 主 题词 节点 
Ej, 和 E; 间 存 在 Ey, — > Ey ~ En < 全 -Ba 两 种 
直接 关联 。 

(2) 间接 关联 (Indirect Relation, IR); 间接 关联 指 
主题 词 间 长 度 大 于 等 于 2 且 不 存在 逆向 属性 的 关联 路 
径 。 如 图 2 所 示 , 主题 词 E,, 和 ,之 间 长 度 为 2 的 间 
接 关 联 有 Ea EE 和 Ep 
E2— E, 等 两 种 ,关联 路 径 长 度 为 3 时 存在 
E, SE3— EE4— SE 和 Ep 
E6— E17 一 < y p 等 两 种 间接 关联 。 

(3) 最 近 公 共 祖 先 节 点 关联 ; 最近 公共 祖先 


R27 >F16 一 2 E, 两 种 LCAR。 
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图 3 近 公 共 祖 先 节 点 关联 示意 


(4) 最 近 公 共 子 孙 贡 点 关联 ; 在 关联 数据 中 节点 
间 不 仅 存 在 最 近 公共 祖先 节点 , 也 存在 最 近 公 共 子 孙 
节点 。 关 联 数据 中 , 两 个 主题 词 节点 通过 最 短 的 属性 
关系 链 向 同一 个 节点 , 那么 这 个 节点 就 被 称 作 最 近 公 
共 子 孙 节 点 (Lowest Common Descendant, LCD), 存在 
最 近 公 共 子 孙 节 点 的 关联 路 径 被 定义 为 最 近 公 共 子 孙 
节点 关联 (Lowest Common Descendant Relation, 
LCDR). WE 4 所 示 ， 当 关联 路 径 长 度 为 2 时 存在 
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Ej, > ES(LCD) — 5 — E,, —fh LCDR。 当 关联 
路 径 长 度 为 3 Hb, d£ dk Bi 一 < ES 
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图 4 最 近 公 共 子 孙 节 点 关联 示意 图 


3.3 ”关联 路 径 的 重要 性 评价 

主题 词 节点 间 关 联 路 径 数 量 庞 大 , 无 法 一 一 分 析 ， 
且 并 非 所 有 关联 路 径 都 具有 揭示 的 价值 。 因 此 ,对 关 
联 路 径 的 重要 性 进行 评价 是 实现 类 簇 实 体 间 语义 关系 
揭示 的 重要 工作 , 具体 包括 : 实体 属性 重要 性 评价 、 实 
体 节 点 重要 性 评价 以 及 实体 间 路 径 综合 重要 性 评价 。 

(1) 实体 属性 重要 性 评价 

Hj, 常见 的 基于 关联 数据 的 属性 重要 性 评价 指 
标 方法 主要 包括 : 基于 信息 箭 的 属性 重要 性 评价 、 基 
于 属性 频率 的 属性 重要 性 评价 、 基 于 关联 节点 的 属性 
重要 性 评价 以 及 基于 TF-IDF 的 属性 重要 性 评价 。 

DFi ie 

Meymandpour 等 3 提出 基于 信息 论 的 关联 数据 信息 量 
衡量 方法 。 信息论 利用 不 确定 性 度量 信息 的 大 小 ， 因 此 单个 
关联 属性 已 的 信息 量 可 以 表示 为 其 出 现 概率 的 负 对 数 ， 计 算 
公式 为 : I(R) = 一 log Pr(P)， 其 中 Pr(P) 表 示 属 性 已 在 整个 数 
据 集中 的 出 现 概 率 ,， 计算 方式 为 属性 P 出 现 频次 除 以 关联 数 
据 集 中 属性 总 频次 , 公式 中 对 数 一 般 取 2 为 底 , 单位 为 比特 。 

@) 基 于 属性 频率 

Kasneci 等 CO 基于 属性 频率 构建 了 信息 量 计算 方法 
MING, MING 给 出 了 节点 i 到 节点 j 的 关联 关系 + 的 权重 计 


I3) 


算 方法 ， 计 算 公式 为 : y DD) ， 其 中 NG, r jy del 
N(C.r, j) 
(i, r, jf 3E, NE, x, 让 为 所 有 经 由 关联 关系 + 到达 节点 j 的 
实例 数量 。Balmin 等 中 将 基于 属性 频率 的 方法 与 人 工分 配 
权重 的 方式 相 结合 ， 在 计算 属性 权重 时 先 根 据 经 验 预先 给 
定 每 种 属性 分 配 一 定 的 权重 ,然后 根据 关联 关系 实例 数量 
等 比例 均 分 给 定 权 重 。Nie 等 Cg 提出 对 象 排序 算法 PopRank 
中 对 关联 属性 的 权重 计算 也 是 基于 同样 的 思路 。 
QE T XGA 
Ng 等 RI 提出 基于 属性 所 关联 的 节点 计算 属性 权重 的 
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MultiRank 算法 。 在 MultiRank 算法 中 ,属性 关系 的 重要 性 
由 该 属性 关系 所 关联 的 两 个 节点 ( 即 关联 数据 中 的 主语 和 对 
象 ) 的 重要 性 得 分 乘积 计算 。 

(X TF-IDF 

XO C UE TROP USER 8 27g EIEE M REA, TR IE) eg 
属性 关系 的 频率 数量 级 差异 十 分 悬殊 。 为 解决 基于 属性 频次 
的 重要 性 评价 方法 的 不 足 ， 本 文 提出 基于 TF-IDF 的 属性 权 
重 计算 方法 。 在 关联 数据 中 , 一 个 属性 在 关联 数据 图 挖 握 出 
的 子 图 (如 图 1) 中 出 现 的 频率 越 高 说 明 它 在 区 分 该 子 图 内 属 
性 方面 的 能 力 越 强 (TF)， 一 个 属性 在 整个 关联 数据 集中 出 现 
的 频率 越 高 说 明 它 的 区 分 性 越 低 (IDF)。 基 于 TF-IDF 的 关联 
数据 属性 权重 计算 公式 可 表示 为 : Wh = tfr Xidfr = tfr x 
log(N /nn)， 其 中 tf 指 属性 R 在 关联 挖 气 结 果子 图 出 现 的 
次 数 ,ilf 指 属性 尺 频 次 的 倒数 , N 表示 关联 数据 集中 的 总 关 
联 数 , 娘 指 廊 在 整个 关联 数据 集中 出 现 的 总 次 数 。 

Q) 实体 节点 重要 性 评价 

基于 关联 数据 的 节点 评价 方法 主要 包括 : 信息 论 
法 、 网 络 图 分 析 法 、 张 量 分 解法 中。 

DI & iti 

信息 论 中 如 果 一 个 事件 是 由 若干 个 独立 的 小 事件 构成 ， 
则 信息 量 是 这 些 独 立 小 事件 的 信息 量 之 和 。 在 关联 数据 中 ， 
节点 由 若干 个 关联 属性 组 成 ， 节 点 自身 信息 量 为 其 关联 属 
性 的 信息 量 之 和 。 

@ 网 络 图 分 析 法 

关联 数据 网 络 中 的 节点 和 属性 类 似 于 Web 中 的 网 页 和 
超 链接 ， 因 此 传统 的 网 络 图 分 析 算 法 PageRank, HITS 经 过 
一 定 的 调整 也 可 以 应 用 到 LOD 中 。 在 关联 数据 中 ， 以 某 个 
节点 为 核心 时 ， 可 以 通过 综合 考虑 核心 节点 的 每 个 相 邻 节 
点 通过 关联 关系 对 核心 节点 贡献 重要 性 ， 形 成 核心 节点 的 
总 体 的 重要 性 ， 以 此 评价 核心 节点 的 影响 力 。 以 待 计算 权重 
的 节点 为 核心 ， 其 权重 的 计算 公式 可 表示 为 : 
RD) = Y, ROWY + 二 ， 其 中 有 0 是 所 有 指向 节点 / 

ieB(j) 

的 节点 集合 ， 其 中 WVij 为 节点 i 指向 节点 j 的 关联 关系 权重 ; 
为 整个 关联 数据 网 络 中 的 所 有 节点 ; a 为 阻尼 系数 ,一 般 取 
0.85。 在 开始 计算 时 ,每 个 节点 的 初始 重要 性 值 默认 是 相同 
的 。 与 之 类 似 , 拓展 网 络 图 分 析 算 法 HITS 方法 也 可 用 于 关 
联 数据 中 节点 重要 性 的 评价 ，Bamba 等 所 基于 HITS 算法 通 
过 预定 义 每 个 关联 关系 的 权威 度 权 重 和 中 心 度 权 重 来 计算 
节点 的 主观 性 得 分 和 客观 性 得 分 以 进行 节点 重要 性 排名 。 

@@ 张 量 分 解法 

张 量 是 一 种 高 维 数据 的 组 织 方法 ， 张 量 分 解 指 的 是 张 
量 等 高 维 数据 通过 Tucker fe Parafac 模型 等 方法 将 其 直接 降 
维 成 几 个 更 小 更 简单 的 子 和 矩阵 相 乘 来 表示 的 过 程 ， 其 中 分 
解 后 的 小 矩阵 描述 的 是 分 解 前 原 和 矩阵 的 重要 特性 。 关 联 数 据 


网 络 中 包含 大 量 丰 富 的 语义 关系 使 其 可 以 表示 为 一 个 三 维 
KE T, 同样 ,关联 数据 中 的 节点 、 相 邻 及 连接 相 邻 节点 的 
关系 也 能 表示 为 三 维 张 量 。 以 待 计算 节点 作 核心 可 以 通过 
综合 考虑 核心 节点 对 各 主题 的 权威 度 形成 核心 节点 的 总 体 
权威 度 ， 以 此 评价 核心 节点 的 影响 力 B0。 

(3) 关联 路 径 综 合 重要 性 评价 

基于 节点 间 路 径 越 短语 义 越 相关 的 一 般 假 设 ,可 
利用 社会 网 络 分 析 中 的 拓展 卡 次 中 心 度 指标 (Katz’s 
Centrality Measure) 对 一 条 路 径 了 的 重要 性 进行 综合 计 
算 , 其 基本 原理 中 是 : 假设 两 个 节点 间 的 路 径 的 有 效 
性 由 已 知 的 常量 概率 a 决定 , 那么 在 一 个 由 个 节点 
组 成 的 路 径 的 概率 为 ws。 本文 在 卡 茨 中 心 度 指标 的 基 
础 上 引入 属性 的 概率 , 长 度 为 N 的 关联 路 径 综合 的 重 
要 性 Pr(P) 可 通过 以 下 公式 计算 : Pr(P)2W(R)x 
W(E)xW(R)x--W(Ry) 。 由 于 属性 和 节点 的 重要 性 
评价 结果 数量 级 存在 差异 , 计算 关联 路 径 综 合 重 要 
生前 须 对 属性 和 节点 的 重要 性 评价 结果 进行 归 一 化 
处 理 。 常 见 的 归 一 化 算法 包括 : 线性 函数 转换 、 对 
数 函 数 转换 、 反 正切 函数 转换 和 线性 与 对 数 函 数 结 
合 等 方法 。 


4 ”基于 关联 数据 的 类 簇 语义 揭示 实现 
本 文 以 Java 语 言 和 Eclipse 为 开发 环境 , 借助 Jena 


=% 


和 Virtuoso 等 开源 工具 和 DBpedia(2016-4) 关 联 数据 集 
实现 基于 关联 数据 的 类 簇 语义 揭示 。 
41 实验 数据 的 选择 

调研 发 现 ,相对 于 其 他 数据 集 , DBpedia 数据 更 为 
全 面 和 丰富 。DBpedia 是 基于 Wikipedia, i5 Y. Web 
和 关联 数据 技术 的 创新 型 知识 库 ， 是 文档 网 向 数据 网 
过 渡 的 标志 性 成 果 之 一 。 最 新 的 DBpedia(2016-4) 拥 有 
超过 90 亿 个 RDF 三 元 组 , 包含 754 个 类 , 涉及 127 种 
语言 , 仅 英文 版 的 DBpedia 知识 库 中 就 描述 了 超过 
600 万 个 事物 (其 中 520 万 个 资源 都 归 类 于 统一 的 本 
体 ), 包含 150 万 人 、81 万 个 地 点 、13.5 万 份 音乐 作品 、 
10.6 万 部 电影 、27.5 万 个 组 织 机 构 、30.1 万 个 生物 物 
种 及 5000 多 种 疾病 , 是 目前 最 大 的 跨 领 域 语义 知识 
库 之 一 ,鉴于 DBpedia 丰 富 的 语义 关系 和 资源 规模 ,本 
文采 用 DBpedia 数据 集 作 为 类 簇 语义 发 现 的 基础 。 同 
时 ， 为 保证 实验 的 合理 和 客观 , 选择 论文 《基于 共 词 
分 析 的 兽医 分 子 生物 学 领域 研究 热点 分 析 及 初步 展 
望 》 咏 中 类 艇 主题 词 “Cloning”* 和 “PCR” 作 为 语义 揭示 
的 对 象 。 
4.2 语义 揭示 系统 框架 

为 实现 基于 关联 数据 的 类 簇 语义 揭示 ,笔者 设计 
了 如 图 5 所 示 的 语义 揭示 系统 框架 , 该 框架 分 为 关 
联 数据 图 挖掘 和 语义 揭示 两 部 分 。 
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图 5 基于 关联 数据 的 类 禾 语 义 揭示 框架 


43 ”关联 数据 图 挖掘 

关联 数据 图 挖掘 指 从 关联 数据 集中 发 现 图 1 所 示 
的 主题 词 节点 中 关联 路 径 的 过 程 , 分 为 数据 准备 和 关 
联 数据 挖掘 两 个 部 分 。 

(1) 数据 准备 

以 Dump 下 载 的 方式 获取 DBpedia(2016-4) 英 文 版 
数据 集 , 并 基于 Virtuoso7.2.4 搭 建 本 地 SPARQL 查询 。 
完成 关联 数据 集 的 获取 后 , 通过 语义 浏览 器 LodLive 


un 


提供 的 关键 词 检索 服务 完成 主题 词 节 点 的 映射 ， 发 现 
类 簇 内 主题 词 “Cloning” 和 “PCR”" 在 DBpedia 中 对 应 的 
节点 URI 分 别 是 “http://dbpedia.org/ resource/Cloning” 和 
“http://dbpedia.org/resource/Polymerase chain reaction", 
(2) 关联 数据 图 挖掘 
本 文 在 借鉴 相关 挖掘 技术 基础 上 提出 基于 迭代 式 
SPARQL 查询 的 关联 数据 图 挖掘 方法 ,基本 原理 是 通 
过 SPARQL 检索 迭代 查找 的 方法 实现 节点 间 最 短 关 联 
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路 径 的 发 现 , 查找 策略 是 从 长 度 为 1 的 路 径 开始 逐渐 
增加 。 以 主题 词 节点 “http:/dbpedia.org/resource/ 
Cloning" FI *http://dbpedia.org/resource/Polymerase - 
chain reaction 为 初始 节点 ， 设 定 最 大 挖掘 路 径 长 度 为 
3 在 DBpedia(2016-4) 关 联 数据 集中 进行 挖掘 ,共计 发 
现 9 480 条 关联 路 径 , 其 中 长 度 为 1 的 关联 路 径 1 条 、 
长 度 为 2 的 关联 路 径 为 72 条、 长度 为 3 的 关联 路 径 9 
407 条 ， 如 图 6 所 示 。 
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关联 路 径 长 度 
图 6 关联 路 径 数 量 随 路 径 长 度 变 化 趋势 


4.4 语义 揭示 
语义 揭示 模块 指 将 基于 关联 数据 的 类 簇 语义 揭示 
模型 应 用 于 关联 数据 图 挖掘 的 结果 ， 分 为 关联 路 径 分 


类 、 重 要 性 指标 计算 和 语义 关系 揭示 等 三 个 部 分 。 
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(1) 关联 路 径 分 类 

挖掘 关联 路 径 后 ,根据 模型 对 4 种 关联 路 径 类 型 
的 定义 , 对 发 现 的 9 480 条 关联 路 径 进行 分 类 。 其 中 ， 
属于 直接 关联 的 有 1 条 (0.01%)， 属 于 间接 关联 的 有 
1076 条 (11.35%)， 属 于 最 近 公共 祖先 节点 关联 的 有 
3 847 条 (40.58%)， 属 于 公共 祖先 节点 关联 的 关联 路 径 
有 4556 条 (48.05%)。 

(2) 路 径 重 要 性 指标 计算 

基于 现 有 数据 的 情况 和 可 行 性 , 笔者 基于 信息 论 
计算 属性 和 节点 重要 性 指标 ,并 据 此 评价 关联 路 径 的 
综合 重要 性 。 计 算 过 程 如 下 : 首先 , 基于 SPARQL 动 
态 获 取 属 性 频次 、 节 点 频次 等 评价 所 需 数据 ,然后 利 
用 第 3 节 的 方法 对 属性 重要 性 和 节点 重要 性 分 别 进行 
计算 , 最 后 根据 调整 Min-Max 归 一 化 处 理 后 的 属性 和 
节点 重要 性 指标 计算 结果 评价 关联 路 径 的 综合 重要 
性 ， 调 整 Min-Max 归 一 化 方法 函数 表示 为 


-M 4 2s 
一 一 2 x0.999 。 路 径 的 综合 重要 性 指 
Max — Min 


标的 计算 结果 如 表 1 所 示 ,， 其 中 “<*>” 表 示 节 点 ， 


desit. 
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Al 部 分 关联 路 径 综 合 重要 性 指标 计算 结果 
关联 路 径 重要 性 指标 类 型 

{< Cloning > http://dbpedia.org/ontology/wikiPageWikiLink ><PCR>} 0.001 DR 
{< Cloning > 一 wkipagewikiLink , Cloning vector > — Ki PeseWikiLink_, <PCR>} 0.00000072 IR 
{< Cloning > wikiPageWikiLink <Bisulfite sequencing > wikiPageWikiLink <PCR>} 
{< Cloning > http://www.w3.org/2004/02/skos/core#broader »« Category:Cloning 5 0.00000072 IR 

http://www.w3.org/2004/02/skos/core#broader »« Category:Biotechnology S 
< http;//purlorg/dc/terms/subject «PCR >} 0.00118999 LCAR 
{< Cloning > wikiPageWikiLink < Molecular cloning> http://purlorg/dc/terms/subject > 1 IGAR 
«Category:Molecular biology» < http://purlorg/dc/terms/subject <PCR>} . 
{< Cloning > « Htp: (puriore/de/terims/súbject — < Category: Molecular biology > 

http://purlorg/dc/terms/subject > <PCR>} 0.00720822 LCDR 
{< Cloning > 9° _ < http://dbpedia.org/dbtax/Technique > — $> <PCR>} 0.00139680 LCDR 


(3) 语义 关系 揭示 

在 揭示 关联 路 径 所 表达 的 语义 关系 前 ， 需 分 析 关 
联 数据 中 属性 关系 的 语义 含义 。 如 表 2 所 示 , 通过 
SPARQL 检索 获取 并 分 析 DBpedia 中 的 高 频 属 性 , 将 
关联 数据 的 语义 关系 界定 为 : 等 同 关系 (包含 同 义 和 
近 义 )、 上 下 位 类 关系 ( 属 种 关系 )、 整 部 关系 、 类 与 实 
例 的 关系 以 及 相关 关系 ( 除 上 述 4 种 关系 的 其 他 所 有 关 
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系 ) 等 5 种 基本 语义 关系 , 并 基于 这 5 种 基本 语义 关系 
分 析 关 联 路 径 所 列 含 的 语义 关系 。 

四 直接 关联 的 语义 关系 揭示 

主题 词 节点 “Cloning” 和 “PCR” 间 存在 1 条 直接 关联 
{< Cloning > — viiPagewikilink 》< pCR >} ( wiiPageWikiLink 》 代 
表 M ME "http;//dbpedia.org/ontology/wikiPageWikiLink"), € 
所 表示 的 语义 关系 为 : 主题 词 “Cloning” 和 “PCR” 具 有 相关 


K2 DBpedia 高 频 属 性 (部 分 ) 


序号 属性 出 现 频次 含义 语义 关系 
1 http://dbpedia.org/ontology/wikiPageWikiLink 172 300 574 对 应 Wikipedia 的 链接 信息 相关 关系 
2 http:/www.w3.org/1999/02/22-rdf-syntax-ns#type 66 418 990 资源 的 标签 信息 类 和 实例 关系 
3 http://www.w3.0rg/2002/07/owlisameAs 40 637 907 指向 同 义 资源 等 同 关系 
4 http://dbpedia.org/property/wikiPageUsesTemplate 36 772 939 RDF 抽取 所 用 模版 信息 相关 关系 
5 http://dbpedia.org/ontology/wikiPageWikiLinkText 23 809 294 Wikipedia 超 链 接 的 文本 信息 ”相关 关系 
6 http://purl.org/dc/terms/subject 22 673 220 资源 的 主题 信息 类 和 实例 关系 


人 @) 间 接 关 联 的 语义 关系 揭示 
主题 词 节点 "Cloning” 和 “PCR” 间 存在 1076 条 间接 关联 ， 
其 中 综合 重要 性 最 高 的 关联 路 径 为 : {Cloning > 
wikiPageWikiLink «Cloning vector» wikiPageWikiLink « PCR >}, 
它 表示 节点 “Cloning_ vector" 5 3:345 "Cloning" fe "PCR" F) 
时 具有 相关 关系 。 除 此 之 外 ,实验 还 发 现 “DNA”“DNA_ 
sequencing”“DNA_profiling” 和 “Molecular cloning” 等 多 个 
资源 也 与 主题 词 “Cloning” 和 “PCR” 同 时 具有 相关 关系 。 
(BLCAR 的 语义 关系 揭示 
主题 词 “Cloning” 和 “PCR” 对 应 节点 间 存 在 最 近 公 共 祖 先 
节点 关联 3 847 条 ,其 中 综合 重要 性 最 高 为 : {< Cloning > 


http://www.w3.org/2004/02/skos/core#broader 


><Category: Cloning> 
http://www.w3.org/2004/02/skos/core#broader 


> < Category: 
Biotechnology > « <PCR >, CR 
示 的 语义 关系 为 : AR "Cloning" fe "PCR" 与 类 
“Biotechnology( 生 物 技术 )” 都 具有 上 下 位 类 的 语义 关系 ， 即 
主题 词 “Cloning” 和 “PCR” 都 是 来 属于 生物 技术 类 的 概念 。 

LCDR 的 语义 关系 揭示 

主题 词 节 点 “Cloning” 和 “PCR” 间 存在 最 近 公 共 祖 先 节 
点 关联 4 556 条 ,其 中 综合 重要 性 最 高 的 为 关联 路 径 


http://purl.org/dc/terms/subject 


http:;//purl.org/dc/terms/subject 


{ < Cloning > « 
biology» — m purtorsdchemsisubiect 》<PCR>}， 它 所 表达 的 语义 
关系 为 : ÈA R] "Cloning" f» "PCR? 2f J5 3€ "Molecular | 
biology( 分 子 生 物 学 六 具有 类 和 实例 关系 ， 即 主题 词 
“Cloning” 和 “PCR” 都 是 来 属于 分 子 生物 学 类 的 概念 。 除 此 之 
外 ,关联 路 径 («Cloning > 4E < http://dbpedia.org/ 


«Category:Molecular | 


dbtax/Technique» 一 "epe ><PCR >} 表示 实 主 题词 
"Cloning" 和 “PCR” E) 时 与 类 “<http://dbpedia.org/ 
dbtax/Technique>” 具 有 类 和 实例 的 语义 关系 ， 即 “Cloning” 和 
“PCR” 都 是 同 种 技术 。 
45 实验 结果 分 析 

笔者 对 重要 性 指标 排名 前 300 的 关联 路 径 进 行 分 
Vr, 结果 显示 由 于 关联 数据 不 完整 等 质量 问题 导致 的 
无 价值 关联 路 径 有 136 条 , 其余 164 条 有 语义 价值 的 
关联 路 径 中 , LCDR 有 106 条 (64.6%), LCAR 有 54 条 


(32.9%), IR 有 3 条 (1.8%), DR 有 1 条 (0.6%), 可 以 发 现 
LCAR 和 LCDR 对 类 艇 的 语义 揭示 最 为 重要 。 对 164 
条 关联 路 径 所 揭示 的 语义 关系 类 型 进行 分 析 发 现 , 相 
关 关 系 以 92.7%(152 条 ) 占 据 绝对 优势 ,其 次 是 类 与 实 
例 关 系 占 比 4.8%(8 条 ), 最 后 是 上 下 位 类 关系 占 比 
2.4%(4 条 )。 相 关 关 系 占 比 最 高 的 主要 原因 是 实验 所 用 
数据 集 DBpedia 抽取 自 维基 百科 , 存在 大 量 涉及 维基 
百科 网 页 信息 的 属性 , 例如 属性 “http://dbpedia.org/ 
ontology/wikiPageWikiLink” 出 现 1.7 亿 次 ， 占 数据 集 属 
性 总 数 (6.8 亿 ) 约 四 分 之 一 , 这 些 对 应 相关 关系 的 属性 
大 量 存在 , 造成 语义 揭示 结果 中 相关 关系 占 比 最 高 。 

本 实验 利用 关联 数据 有 效 揭示 了 主题 词 间 的 相关 
关系 、 类 和 实例 关系 以 及 类 和 属性 关系 等 多 种 语义 关 
系 , 例如 : 主题 词 “Cloning” 和 “CR” 都 是 隶属 于 生物 
技术 类 的 概念 、 主 题词 “Cloning” 和 “PCR”* 都 隶属 于 分 
子 生物 学 类 的 概念 、 主 题词 “Cloning” 和 “PCR" 都 属于 
一 种 技术 等 。 在 论文 《基于 共 词 分 析 的 兽医 分 子 生物 
学 领域 研究 热点 分 析 及 初步 展望 》 中 ,专家 通过 对 类 
徐 的 人 工分 析 将 主题 词 “Cloning* 和 “PCR” 所 属 的 类 簇 
命名 为 “克隆 技术 人 研究” 与 本 实验 语义 结果 揭示 相 一 
致 , 证 明了 基于 关联 数据 的 类 得 语义 关系 揭示 模型 具 
有 可 行 性 和 有 效 性 。 

实验 也 存在 一 些 不 足 ， 首先 仅 基于 单一 的 
DBpedia 英文 版 关联 数据 集 对 模型 进行 实验 验证 ， 揭 
示 出 的 语义 关系 类 型 局 限 为 相关 关系 、 类 与 实例 关系 
以 及 上 下 位 类 关系 等 三 种 。 另 外 , 关联 数据 资源 存在 
数据 不 完整 、 数 据 重复 和 数据 不 一 致 等 质量 问题 也 对 
语义 揭示 的 精确 度 造成 一 定 影响 。 
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O WREKE 


TY FEES AT UTE TS XR Ars 2r BEA A. HKI 
语义 关系 的 揭示 提供 了 一 种 新 的 思路 。 相 较 于 其 他 语 
EHE, 关联 数据 具有 语义 资源 覆盖 广 和 结构 化 程度 高 
的 双重 优势 ,快速 发 展 的 LOD 资源 保证 了 绝 大 多 数 领 
域 的 类 簇 可 以 得 到 有 效 语义 揭示 。 本 研究 主要 存在 以 
下 两 个 方面 的 不 足 : 局 限于 单一 数据 集 的 语义 揭示 以 
及 关联 数据 质量 对 语义 揭示 结果 造成 的 影响 。 后 续 研 
究 中 , 将 对 基于 更 多 关联 数据 资源 的 类 簇 语义 揭示 进 
行 研究 ,同时 改进 关联 路 径 的 重要 性 评价 指标 , 克服 
关联 数据 质量 对 语义 揭示 结果 的 影响 。 


[1] 


[2] 


[3] 


[4] 


[5] 


[6] 


[7] 


钟 伟 金 ， 李 佳 . 共 词 分 析 法 研究 (一 ) 一 一 共 词 分 析 的 过 程 
与 方式 [J]. 情报 杂志 , 2008, 27(5): 70-72. (Zhong Weijin, 
Li Jia. The Research of Co-word Analysis (1) The 


Process and Methods of Co-word Analysis [J]. Journal of 
Intelligence, 2008, 27(5): 70-72.) 

张 树 良 , 冷 伏 海 . 基于 文献 的 知识 发 现 的 应 用 进展 研究 
[U]. 情报 学 报 , 2006, 25(6): 700-712. (Zhang Shuliang, Leng 
Fuhai. 


Study on the  Applicational Development of 


Literature-based Knowledge Discovery [J]. Journal of the 
China Society for Scientific and Technical Information, 2006, 
25(6): 700-712.) 

张 蛤 , 任 志 国 ， 张 健 , 等 . 基于 主题 词 关联 规则 的 医学 文 
本 数据 库 数 据 挖掘 的 尝试 D]. 医学 信息 学 杂志 ，2008， 
29(1): 32-35. (Zhang Han, Ren Zhiguo, Zhang Jian，et al. 


Study on the Data Mining in Medical Text Database Based on 


Keywords Journal of Medical 
Informatics, 2008, 29(1): 32-35.) 
张 蛤 , Hh. 生物 信息 学 的 共 词 分 析 研 究 I. 情报 学 报 ， 


2003, 22(5): 613-617. (Zhang Han, Cui Lei. Study of 


Association Rules [J]. 


Bioinformatics through Co-word Analysis[J]. Journal of the 
China Society for Scientific and Technical Information, 2003, 
22(5): 613-617.) 

Cimino J J, Barnett G O. Automatic Knowledge Acquisition 
from Medline [J]. Methods of Information in Medicine, 1993, 
32(2): 120-130. 

刘 明 岩 . 面向 语义 关系 发 现 的 文本 挖掘 研究 [D]. 南京 : 南 
京 理 工大 学 , 2010. (Liu Mingyan. Research of Text Mining 


About Semantic Relation Recognition[D]. Nanjing: Nanjing 
University of Science and Technology, 2010.) 

张 小 刚 . 基于 中 医药 本 体 的 语义 关系 发 现 及 验证 方法 [D]. 
杭州 : 浙江 大 学 ，2010. (Zhang Xiaogang. Traditional 


数据 分 析 与 知识 发现 


[8] 


[9] 


[10] 


[12] 


[13] 


[14] 


[15] 


[17] 


[18] 


Chinese Medical Ontology Based Semantic Relation 
Discovering and Verification [D]. 
University, 2010.) 

MR. 基于 在 线 词 表 的 Folksonomy 语 义 关 联 识别 方法 研究 
J). 图 书 情 报 工 作 ，2011，55(5): 104-108. (Wei Lai. 


Research of Folksonomy Semantic Association Method Based 


Hangzhou: Zhejiang 


on Online Thesaurus [J]. Library and Information Service, 
2011, 55(5): 104-108.) 

Tiddi I, D'Aquin M, Motta E. Dedalo: Looking for Clusters 
Explanations in a Labyrinth of Linked Data [M]. Springer 
International Publishing, 2014. 

Taheriyan M, Knoblock C A, Szekely P, et al. Leveraging 
Linked Data to Infer Semantic Relations Within Structured 
Sources[C]// Proceedings of the 6th International Workshop on 
Consuming Linked Data (COLD). 2015. 

李楠 ， 张 学 福 . 基于 关联 数据 的 知识 发 现 模型 研究 [J]. 图 
书馆 学 研究 , 2013, 1: 73-77. (Li Nan, Zhang Xuefu. Research 


on Knowledge Discovery Based on Linked Data [J]. 
Researches in Library Science, 2013, 1: 73-77.) 

ER, WO. 关联 数据 的 知识 发 现 研 究 J]. 情报 科学 ， 
2013, 31(3): 79-84. (Li Jun, Huang Chunyi. Knowledge 
Discovery in Linked Data [J]. Information Science, 2013, 
31(3): 79-84.) 

AHHA, PMM, XJ, 等 . 基于 关联 数据 的 知识 发 现 模 
型 构建 研究 [J]]. 情报 科学 , 2016, 34(6): 10-13. (Gao Jinsong, 
Li Yingying, Liu Long, et al. Research on Construction of the 
Knowledge Discovery Model Based on Linked Data [J]. 
Information Science, 2016, 34(6): 10-13.) 

宋 丽 娜 . 关联 数据 环境 下 基于 知识 地 图 的 隐 性 知识 发 现 模 
型 研究 [D]. 武汉 : 华中 师范 大 学 ，2014. (Song Lina. 
Research on Model of Knowledge Discovery Based on 


Knowledge Map Under the Environment of Linked Data [D]. 
Wuhan: Central China Normal University, 2014.) 

刘 龙 . 基于 关联 数据 的 知识 发 现 过 程 模型 研究 [D]. 武汉 : 
华中 师范 大 学 , 2014. (Liu Long. Research on Model of 


Ter 


Knowledge Discovery Process Based on Linked Data [D]. 
Wuhan: Central China Normal University, 2014.) 

Narasimha V, Kappara P, Ichise R, et al. LiDDM: A Data 
Mining System for Linked Data [C]// Proceedings of the 2011 
Linked Data on the Web. 2011. 

Paulheim H, Fürnkranz J. Unsupervised Generation of Data 
Mining Features from Linked Open Data[C]//Proceedings of 
the International Conference on Web Intelligence, Mining and 
Semantics. 2012. 


Ramezani R, Saraee M, Nematbakhsh M A. Finding 


201711.01940v1 


chinaXiv 


[19] 


[20] 


[21] 


[22] 


[23] 


[24] 


[25] 


[26] 


[27] 


[28] 


Association Rules in Linked Data, A  Centralization 
Approach[C]//Proceedings of the 21st Iranian Conference on 
Electrical Engineering. 2013. 

Personeni G, Daget S, Bonnet C, et al. Mining Linked Open 
Data: A Case Study with Genes Responsible for Intellectual 
Disability [M]. Springer International Publishing, 2014. 

Jiang X, Zhang X, Gao F, et al. Graph Compression Strategies 
for Instance-Focused Semantic Mining [C]//Proceedings of 
the 7th Chinese Semantic Web Symposium on Linked Data 
and Knowledge Graph. 2013. 

Li K, Gao J, Guo S, et al. LRBM: A Restricted Boltzmann 
Machine Based Approach for Representation Learning on 
Linked Data[C]// Proceedings of the IEEE International 
Conference on Data Mining. 2014. 

Er: Wi. LOD 的 网 络 结构 分 析 与 可 视 化 D]. 现代 图 
书 情报 技术 , 2016(1): 65-72. (Xia Lixin, Tan Ying. Analysis 
and Visualization of the LOD Network Structure [J]. New 
Technology of Library and Information Service, 2016(1): 
65-72.) 

Meymandpour R, Davis J G. Linked Data Informativeness 
[M]. Springer Berlin Heidelberg, 2013. 

Kasneci G, Elbassuoni S, Weikum G. MING: Mining 
Informative Entity-Relationship Subgraphs [C]// Proceedings 
of the 18th ACM Conference on Information and Knowledge 
Management. 2009. 

Balmin A, Hristidis V, Papakonstantinou Y. ObDjectrank: 
Authority-based Keyword Search in Databases[C]// 
Proceedings of the 30th International Conference on Very 
Large Data Bases.2004. 

Nie Z, Zhang Y, Wen J R, et al. Object-level Ranking: 
Bringing Order to Web Objects[C]//Proceedings of the 2005 
International Conference on World Wide Web. 2005. 

Ng M K P, Li X T, Ye Y M. MultiRank: Co-ranking for 
Objects [C]/ 
Proceedings of the ACM SIGKDD International Conference 


and Relations in  Multi-relational Data 
on Knowledge Discovery and Data Mining. 2011. 

蒋 世 银 ， 李 春 旺 . 基于 关联 数据 的 科研 机 构 评价 研究 述评 
U) 情报 理论 与 实践 , 2015, 38(2): 136-140. (Jiang Shiyin, 


[29] 


ChinaXiv 合 作 期 刊 


总 第 4 期 2017 年 第 4 期 


Li Chunwang. Review on the Evaluation of Scientific 
Research Institution Based on Linked Data [J]. Information 
Studies: Theory & Application, 2015, 38(2): 136-140.) 

Bamba B, Mukherjea S. Utilizing Resource Importance for 
Ranking Semantic Web Query Results[C]//Proceedings of the 
2nd International Conference on Semantic Web and 
Databases. 2004. 

Franz T, Schultz A, Sizov S, et al. TripleRank: Ranking 
Semantic Web Data by Tensor Decomposition[C]// 
Proceedings of the International Semantic Web Conference. 
2009. 

Hulpus I, Prangnawarat N, Hayes C. Path-Based Semantic 
Relatedness on Linked Data and Its Use to Word and Entity 
Disambiguation[C]// Proceedings of the International 
Semantic Web Conference. 2015. 

TH. Iit, 石 达 友 ,等 . 基于 共 词 分 析 的 兽医 分 子 生物 
学 领域 研究 热点 分 析 及 初步 展望 DI]. 广东 畜牧 兽医 科技 ， 
2015, 40(2): 1-4. (Yue Yang, Sun Jing, Shi Dayou, et al. 
Interpretation and Preliminary Outlook of the Research Focus 
in Veterinary Molecular Biology Based on the Co-word 
Analysis [J]. Guangdong Journal of Animal and Veterinary 


Science, 2015, 40(2): 1-4.) 


EKHE: 文献 搜集 ， 程 序 设 计 ， 论 文 撰写 ; 


李 春 旺 : 提出 研究 思路 ， 审阅、 修改 论文 。 


所 有 作者 声明 不 存在 利益 冲突 关系 。 


支撑 数据 由 作者 自 存储 , E-mail: cuijiawang@mail.las.ac.cn。 


[1] 崔 家 旺 . 关联 数据 挖掘 _9480.xls. 实验 数据 集 . 


收 稿 日 期 : 2017-02-16 
收 修改 稿 日 期 : 2017-04-11 


Data Analysis and Knowledge Discovery 


Identifying Semantic Relations of Clusters Based on Linked Data 


Cui Jiawang"? Li Chunwang! 
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
"(University of Chinese Academy of Sciences, Beijing 100049, China) 


Abstract: [Objective] This paper introduces a model to identify the semantic relations for the co-word analysis results 
based on linked data. [Methods] First, we used Google Scholar, Springer and CNKI to retrieve the literature of the 
related research. Then, we analyzed the clusters relations of them. Finally, we constructed and examined the semantic 
relation model for clusters based on the linked data graph structure. [Results] The linked data helped us effectively 
explore the potential semantic relations among keywords. [Limitations] Due to the limits of the collected linked data, 
we only identified some sematic relationship, such as hierarchical, simple relavent, as well as classes-instance ones. 
More research is needed to improve the quality of linked data. [Conclusions] The proposed model could successfully 
discover the semantic relations among keywords, which help us get more insights from the cluster analysis. 


Keywords: Linked Data  Co-word Cluster Analysis Cluster Semantic Relations Revealing Model 


NISO 发 布 《标准 标签 套件 》 草 稿 版 以 征求 公众 意见 


美国 国家 信息 标准 化 组 织 (NISO) 于 近日 宣布 发 布 NISO Z39.102-201x 草案 版 本 ， 即 《STS: 标准 标签 套件 》(STS: Standards 
Tag Suite)， 以 征求 公众 意见 。STS 提供 了 一 种 通用 的 XML 格式 , 标准 开发 人 员 、 发 布 商 和 分 销 商 都 可 以 使 用 它 来 发 布 和 交 
换 标准 的 全 文 内 容 和 元 数据 。 在 草案 版 本 的 意见 得 到 解决 , 并 得 到 了 NISO 表决 委员 会 和 美国 国家 标准 研究 所 的 同意 之 后 ， 
这 一 标准 将 会 正式 发 布 , 预计 会 在 今年 秋季 。 

NISO STS 工作 组 联席 主席 Robert Wheeler Wi: “在 STS 之 前 ， 有 几 个 DTD 用 于 标记 标准 类 型 的 信息 ,这 种 变化 阻碍 了 跨 
标准 的 互 操作 性 , 并 且 阻 碍 了 组 织 之 间 的 协作 。 所 以 , 各 协会 、 标 准 制定 组 织 和 政府 实体 一 起 ,共同 创建 了 这 一 新 工作 。 该 
工作 是 建立 在 出 版 商 目 前 正在 使 用 的 ANSI / NISO Z39.96-2015， 即 《JATS: 期 刊 文章 标签 套件 》 和 标准 化 国际 组 织 4SO) 的 
STS 版 本 之 上 。” 

JATS 的 用 户 将 能 够 立即 熟悉 起 STS 模型 。NISO STS 工作 组 联席 主席 Bruce Rosenblum 在 最 近 的 STS 电话 会 议 讨论 中 
解释 :“ 在 许多 方面 , 文章 的 内 容 与 标准 内 容 非 常 相似 , 核心 结构 部 分 是 相同 的 ， 尽管 元 数据 不 同 。 这 个 草案 是 过 去 18 个 月 参 
与 这 项 工作 的 两 个 小 组 成 员 以 及 指导 和 技术 工作 组 所 做 的 巨大 努力 的 重要 里 程 碑 。”NISO 执行 董事 Todd Carpenter 也 赞赏 
JATS 与 STS 之 间 的 协同 作用 , 他 说 :“ 许 多 标准 出 版 协会 都 有 强大 的 期 刊 系统 。 让 这 些 系 统 保持 一 致 对 这 些 协 会 来 说 就 是 胜 
利 ， 我 们 期 望 这 两 个 标准 今后 也 能 不 断 改 进 。 像 我 们 所 有 的 标准 一 样 ， 得 到 了 良好 的 维护 ， 以 满足 不 断 变化 和 扩展 的 需求 。” 

拟 议 的 标准 PDF 格式 可 从 http://www.niso.org/ workrooms/sts/ 获 得 。 

(编译 自 : http:/www.niso.org/news/pr/view?item key=f74de7db56828abfd977e90c2546babc91fdf27d) 
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